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摘 要 动态 基 
究 通 过 评 佑 老年 人 与 年 轻 人 在 言语 掩蔽 下 聆听 具有 自 


别 能 力 , 探讨 老龄 化 对 FO 轮廓 线索 在 汉语 言语 识别 去 掩蔽 


作用 


频 (F0) 轮 廓 有 助 于 嘲 杂 环境 下 的 言语 识别 ,可 以 作为 将 目标 语音 从 背景 声 中 分 离 的 知觉 线索 。 本 研 
然 动态 FO 轮廓 与 对 FO 轮廓 操作 调节 后 的 汉语 语句 的 言语 识 


中 的 影响 。 结果 显示 ,在 言语 掩蔽 下 自然 动态 的 FO 


轮廓 比 压 
FO 轮廓 线索 中 受益 。 研 究 结果 揭 示 了 老 匀 


BHR FO 轮廓 更 能 帮助 年 轻 人 抵抗 信 ， 
FE 人 利用 


AH 
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引言 


噪声 下 的 言语 识别 及 理解 对 日 常生 活 和 工作 
中 人 与 人 之 间 的 交流 非常 重要 。 人 类 具有 从 复杂 的 
声学 环境 中 提取 目标 信息 并 对 其 进行 深度 加 工 的 
能 力 。 在 嗜 杂 环境 中 ， 人 们 对 特定 目标 语音 的 加 工 
会 受到 周围 背景 噪声 和 其 他 说 话 人 语音 的 干扰 ， 这 
种 现象 称 为 “听觉 掩蔽 ”(Auditory Masking)。 虽 然 来 
自 不 同 声 源 的 声音 会 在 听 者 的 外 耳 闪 加 混合 , 但 听 
者 依然 能 够 选择 性 地 对 需要 注意 的 目标 说 话 人 所 
说 的 内 容 进行 追踪 和 识别 (Schneider et al., 2007). 
在 充斥 着 掩蔽 声音 的 哮 杂 环境 中 ， 听 者 会 利用 各 种 
感知 线索 将 目标 言语 从 背景 干扰 中 分 离 出 来 ， 从 而 
达到 对 目标 言语 的 去 掩蔽 (Unmasking) 作 月 
李 量 等 , 2017)。 
吐 杂 环境 下 听 者 会 利用 某 些 与 目标 言语 特征 
有 关联 的 知觉 线索 来 促进 对 被 掩蔽 的 目标 言语 的 
识别 ( 李 量 等 ,2017)。 基 频 (F0) 轮 廊 对 嘻 杂 环境 下 
的 言语 感知 非常 重要 , 它 的 功能 不 仅 是 强调 特定 的 
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该 识 别 目标 言语 ; T 
FO 轮廓 线索 促进 掩蔽 下 言语 感知 能 力 的 老化 特点 。 
汉语 言语 识别 , FO 轮廓 线索 ,老龄 化 ,言语 掩蔽 ， 去 掩蔽 


j 老 年 人 在 言语 掩蔽 下 却 难以 从 动态 


单词 和 标记 短语 边界 (Cutler et al., 1997), 还 可 以 作为 
从 掩蔽 声音 中 分 离 语 音 的 感知 线索 (Binns & Culling, 
2007)。 近 年 来 许多 研究 者 研究 了 FO 轮廓 线索 对 嘲 
杂 环 境 下 言语 感知 的 影响 (Binns & Culling, 2007; 
Chen et al., 2018; Miller et al., 2010; Patel et al., 
2010; Shen & Souza, 2019; Wu, 2019), 一 致 认为 F0 轮 
廓 动态 变化 对 噪声 下 的 言语 可 懂 度 具有 重要 作用 。 
基 频 (F0) 轮 廓 变化 有 助 于 多 语 流 中 的 说 话 人 分 
离 ， 对 日 常 交 流 中 的 言语 识别 非常 重要 (Greenberg 
et al., 2004)。 作 为 不 利 声学 环境 下 促进 言语 识别 的 
强 有 力 线 索 之 一 , F0 轮廓 动态 变化 能 够 增强 语音 流 
的 感知 连续 性 (Dannenbring，1976)， 并 提高 对 背景 


后 
we 


A st 
掩蔽 下 的 目标 言语 识别 (Shen & Souza, 2019). 因此， 
许多 研究 都 将 兴趣 集中 在 FO 轮廓 线索 对 言语 感知 
的 贡献 上 (Binns & Culling, 2007; Miller et al., 2010; 
Shen & Souza, 2019)。 研 究 者 通过 对 自然 语句 FO 轮廓 
的 调节 操作 , 例如 压 扁 (Binns & Culling, 2007)、 拉 伸 
(Miller et al., 2010) 或 反 转 (如 : Hillenbrand, 2003) 基 频 
FO 轮廓 ,来 检验 对 不 同 FO 轮廓 调节 后 对 言语 可 懂 
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度 的 影响 。 对 于 英语 语音 的 感知 ， 以 往 的 研究 结 
显示 , 无 论 是 在 安静 状态 下 还 是 在 稳定 的 语 谱 噪 声 


轻 听 者 在 言语 掩蔽 下 有 效 的 语音 识别 已 经 在 多 个 
数据 集 上 得 到 了 一 致 验证 ， 然 而 关于 老年 听 者 的 研 


中 ,通过 扁平 化 英语 句子 的 F0 轮廓 , 语音 可 懂 度 
会 降低 (如 : Binns & Culling, 2007; Miller et al., 
2010; Shen & Souza, 2019)。 在 对 这 些 发 现 提出 的 解 
释 中 认为 FO 轮廓 的 上 升 和 下 降 会 将 听 者 的 注意 力 
引 向 言语 的 内 容 词 ; 因此 ， 如 果 没 有 这 些 线索 , 言 
语 的 可 理解 性 就 会 下 降 (Binns & Culling, 2007). 
Miller 等 人 (2010) 也 证 明了 被 调节 的 F0 轮廓 对 噪声 
下 的 语音 识别 有 害 ， 拉 伸 的 FO 轮廓 与 保留 自然 动 
AS FO 轮廓 相 比 并 没有 发 现 更 有 利 的 效果 。 
Hillenbrand (2003) 也 发 现 自然 动态 FO 轮廓 线索 对 
于 不 利 条 件 下 的 语音 识别 更 有 帮助 ， 语 音 中 的 平坦 
或 倒转 FO 轮廓 会 导致 言语 可 懂 度 的 降低 。 这 些 研 
究 结果 一 致 表明 自然 动态 变化 的 FO 轮廓 有 利于 英 
语 语音 的 识别 。 

基 频 FO 轮廓 线索 对 噪声 环境 下 的 英语 语音 感 
知 作 用 已 经 得 到 了 广泛 的 研究 (Binns & Culling, 
2007; Miller et al., 2010; Shen & Souza, 2019)。 对 于 
汉语 语音 感知 的 研究 ， 现 有 的 数据 集 还 很 有 限 ， 但 
动态 F0 线索 有 助 于 听 者 在 背景 噪声 下 言语 识别 的 
这 种 效应 在 汉语 语言 中 也 得 到 了 证 实 。Patel 等 人 
(2010) 使 用 有 意义 的 汉语 句子 为 目标 刺激 , 证 明了 
在 安静 的 环境 中 ,具有 平坦 FO 轮廓 的 汉语 句子 与 
具有 自然 F0 模式 的 句子 一 样 容易 理解 (Patel et al., 
2010); 然而 , 正如 其 他 几 项 研究 (如 : Wang et al., 
2013; Wu, 2019) 报 告 的 那样 , 在 稳 态 噪声 或 嗜 杂 语 掩 
蔽 下 , FO 轮廓 线索 被 调节 的 句子 的 言语 可 懂 度 较 低 。 

在 汉语 普通 话 中 , FO 轮廓 是 单 音节 水 平 上 声调 
感知 的 主要 线索 (Xu & Zhou, 2011), 另外 它 还 与 句 
子 语调 和 音 高 的 感知 有 关 。Wu (2019) 使 用 中 文 无 
意义 句子 作为 言语 刺激 ， 对 句子 的 语调 进行 扁平 化 
或 拉 伸 的 调节 操作 ， 同 时 保留 每 个 单 音 节 的 声调 信 
息 。 与 英语 语音 感知 的 研究 (Binns & Culling, 2007; 
Miller et al., 2010) 结 果 一 致 ， 具有 自然 F0 轮廓 线索 
的 语音 比 对 FO 轮廓 线索 调节 操作 后 的 语音 更 容易 
被 感知 。 此 外 , Wu (2019) 的 研究 还 表明 压 扁 或 拉 伸 
FO 轮廓 线索 会 对 噪声 环境 下 的 言语 可 懂 度 产生 不 
利 影响 ,尤其 是 在 多 人 说 话 的 言语 掩蔽 下 。 这 些 结 
论说 明了 动态 FO 轮廓 线索 有 助 于 言语 掩蔽 下 的 汉 
语言 语 识别 。F0 轮廓 线索 在 汉语 言语 识别 去 掩蔽 中 
具有 重要 作用 。 

值得 注意 的 是 ， 上 述 研究 都 是 针对 具有 典型 听 
力 的 年 轻 被 试 进 行 的 , 动态 FO 轮廓 线索 有 助 于 年 


究 还 很 欠缺 。 探讨 老年 人 能 够 利用 哪些 知觉 线索 以 
减少 他 们 在 嗜 杂 环境 中 的 言语 识别 困难 具有 重要 
意义 。 在 多 人 同时 说 话 的 嗜 杂 环境 中 老年 听 者 是 否 
能 从 动态 FO 轮廓 线索 中 获 益 ， 目 前 尚 不 清楚 。 

相对 于 听力 正常 的 年 轻 人 而 言 ， 动 态 FO 线索 
对 老年 听 者 在 噪声 下 言语 感知 的 影响 更 为 复杂 和 
多 变 。 老 年 人 对 FO 轮廓 线索 的 感知 和 利用 可 能 会 
比 年 轻 人 更 加 困难 。 由 于 年 龄 增加 所 带 来 的 外 周 听 
觉 系 统 功能 的 下 降 ， 比 如 听觉 闵 限 的 提高 、 听 觉 滤 
波 器 带宽 的 增加 、 时 间 分 辨 率 的 下 降 等 均 可 导致 老 
年 人 的 言语 加 工 能 力 的 降低 。 因 此 ， 老 年 人 感知 动 
AS FO 线索 的 能 力 可 能 会 因 各 种 阀 上 上 听力 缺陷 而 下 
ME, 这 其 中 包括 时 间 编 码 不 良 (Grose & Mamo, 2010; 
Hopkins & Moore, 2011)、 频 率 选 择 性 降低 (Hopkins 
& Moore, 2011), 以 及 频率 调制 的 退化 神经 表征 
(Clinard & Cotter, 2015)。 这 种 与 年 龄 相关 的 听觉 时 
闻 加 工 缺 陷 会 影响 老年 人 对 语音 中 时 变 的 基 频 准 
确 地 进行 编码 ， 从 而 影响 老年 人 感知 言语 中 F0 轮 
廓 线索 的 能 力 。 

除 此 之 外 , 老年 人 高 级 认 知 加 工 功能 的 下 降 也 
会 引起 他 们 在 哮 杂 环境 下 的 言语 识别 困难 (如 : Tun 
et al., 2009; Wingfield & Tun, 2001; Humes et al., 
2006)。 值 得 注意 的 是 ,纯音 听觉 阔 值 并 不 能 完全 直接 
反映 老年 人 的 听觉 能 力 (Ruggles et al.，2011)。 例 如 ， 
从 感 音 神经 性 听力 损失 和 听力 正常 的 老年 人 中 收集 
的 频率 辨别 数据 表明 , 在 听力 图 相似 的 老年 人 中 感 
知音 高 线索 的 能 力 差 异 很 大 (Moore & Peters, 1992)。 
此 外 ,即使 拥有 临床 正常 的 纯音 听觉 阔 限 值 ， 老 龄 言 
语感 知 困难 仍 可 能 发 生 (Fiillgrabe et al., 2014)。 与 年 
龄 相关 的 噪声 中 言语 理解 差异 可 能 是 由 于 与 纯音 听 
阔 升 高 无 关 的 其 他 听觉 能 力 的 下 降 , 并 涉及 中 枢 听 
党 或 认 知 处 理 过 程 (Fiillgrabe et al., 2014). 

认 知 水 平 上 , 老年 人 在 哺 杂 环境 下 处 理 和 理解 
言语 的 能 力 会 受到 选择 性 注意 、 工 作 记 忆 、 抑 制 性 
控制 和 认 知 加 工 速 度 普遍 减 慢 的 影响 (如 : van Knijff 
et al., 2018; Schneider et al., 2016)。 相 对 于 年 轻 人 ， 
老年 人 可 能 需要 更 多 的 认 知 资源 ， 以 便 在 背景 噪声 
存在 的 情况 下 解析 言语 信号 ,尤其 是 当 输 入 信和 号 由 
于 听觉 时 间 处 理 缺 陷 而 进一步 消退 时 ， 这 对 自 上 而 
下 的 处 理 提 出 了 更 高 的 要 求 。 因 此 , 老年 人 在 多 人 
说 话 的 嗜 杂 环境 下 处 理 FO 轮廓 信息 会 比 年 轻 人 更 
具有 挑战 性 。 
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虽然 老年 人 外 周 听 觉 和 中 枢 听 觉 处 理 功能 豪 
退 , 但 有 研究 证 据 表 明 老 年 人 的 大 脑 可 能 会 通过 资 
源 重 组 或 认 知 策略 改变 以 应 对 感知 觉 加 工 能 力 的 
下 降 (Du etal., 2016)。Du 等 人 (2016) 的 研究 发 现 老 
年 人 在 噪声 环境 下 加 工 和 识别 言语 时 会 调用 更 多 
的 认 知 资源 和 脑 区 以 作为 一 种 代 偿 。 那么 老年 人 在 
噪声 下 感知 和 利用 F0 线索 促进 言语 识别 的 能 力 是 
否 也 会 存在 一 定 程 度 的 保留 ? ”老年 人 因 年 龄 增加 
带 来 了 听觉 加 工 能 力 下 降 , 但 语言 知识 实际 上 是 随 
着 年 龄 的 增长 而 提高 的 (Wright, 2016)。 有 研究 结果 
显示 在 不 利 的 听觉 条 件 下 , 老年 人 比 年 轻 人 更 能 从 
语义 语 境 中 受益 (Frisina & Frisina, 1997; Sheldon 
et al., 2008)。 当 分 别 从 语句 、 词 汇 、 语 音 层面 给 被 
试 提供 好 的 语 境 条 件 时 ， 相 对 于 年 轻 被 试 ， 老 年 被 
试 可 以 获得 更 多 的 目标 语句 释放 量 (Sheldon et al, 
2008; Singh et al, 2008;Wingfield &Tun, 2007)。 此 外 ， 
已 有 的 证 据 表 明 老 年 听 者 在 安静 的 环境 中 对 话音 
理解 非常 依赖 韵律 线索 (综述 见 Wingfield & Tun, 
2001), 包括 利用 动态 音 高 线索 来 理解 语音 (Shen & 
Souza，2017)。 对 于 在 嗜 杂 环境 下 难以 理解 言语 的 
老年 人 来 说 ,任何 对 言语 感知 是 元 余 的 线索 也 许 在 
不 利 的 环境 里 有 可 能 可 以 提供 额外 的 好 处 (Darwin， 
2008)。 老年 听 者 也 许可 以 从 这 些 线索 中 获 益 , 以便 
更 好 地 识别 噪声 环境 中 的 语音 。 

噪声 下 言语 感知 能 力 下 降 会 限制 老年 人 人 际 
交流 质量 ,进而 影响 到 老年 人 的 身心 健康 。 老 年 人 
在 噪声 下 言语 感知 困难 背后 的 机 制 仍 不 清楚 ， 治 疗 
方案 也 很 少 。 动 态 FO 轮廓 线索 对 日 常 交 流 中 的 言 
语 识别 很 重要 ,听觉 加 工 老 龄 化 是 否 会 影响 老年 人 
对 动态 FO 轮廓 线索 的 感知 和 利用 ， 现 有 的 数据 集 
还 很 有 限 FO 轮廓 动态 变化 是 否 能 够 帮助 老年 人 从 
掩蔽 中 分 离 出 目标 言语 还 有 竺 阐明 。 嘲 杂 环 境 下 老 
年 人 在 汉语 言语 感知 中 对 FO 轮廓 信息 是 如 何 处 理 
的 更 是 知之 其 少 。 值 得 注意 的 是 , 汉语 单字 的 声调 
具有 语义 意义 ， 其 基 频 的 波动 较 英 语 的 活跃 , 这 有 
助 于 抵抗 信息 掩蔽 。 另 外 ,汉语 的 清 辅 音 较 英语 的 
多 , 会 更 加 受 噪音 的 掩蔽 (Kang, 1998)。 因 此 , 汉语 
语 境 下 FO 轮廓 信息 在 言语 感知 中 是 如 何 处 理 的 需 
要 得 到 更 多 关注 。 本 文 将 基于 汉语 成 句 语 音 ， 尝试 
阐明 FO 轮廓 线索 的 操作 对 言语 掩蔽 下 的 汉语 言语 
识别 去 掩蔽 作用 受 老 龄 化 的 影响 。 

本 实验 研究 将 评估 老年 人 与 年 轻 人 在 言语 掩 
蔽 环境 下 利用 汉语 成 句 的 FO 轮廓 线索 抵抗 信息 捧 
珊 识 别 目标 言语 的 能 力 ， 考察 对 FO 轮廓 线索 的 操 


作 是 否 会 影响 老年 人 与 年 轻 人 在 言语 掩蔽 下 的 汉 
语言 语 识 别 成 绩 。 通过 比较 两 个 年 龄 组 对 具有 动态 
自然 的 F0 轮廓 的 语句 与 具有 拉 伸 的 或 扁平 的 F0 轮 
廓 的 相应 语句 在 言语 掩蔽 下 的 识别 表现 ,探讨 老龄 
化 对 F0 轮 廊 线 索 在 言语 识别 去 掩蔽 作用 中 的 影响 。 
2 实验 方法 
2.1 被 试 

听力 正常 的 12 名 年 轻 被 试 (其 中 7 名 女性 和 5 
名 男性 , 平均 年 龄 为 24.0 岁 , 年 龄 范围 在 20~26 岁 
之 间 ) 和 12 名 老年 被 试 (其 中 6 名 女性 和 6 名 男性 ， 
平均 年 龄 为 68.6 岁 , 年 龄 范围 在 57~75 岁 之 间 ) 参 
与 了 实验 '。 被 试 的 母语 均 为 汉语 。 所 有 被 试 在 了 解 
实验 目的 和 程序 后 都 在 知情 同意 书 上 签字 。 实验 结 
HUA, 被 试 接收 适量 现金 作为 实验 酬劳 。 

实验 前 所 有 的 被 试 都 经 过 纯音 听力 测试 (如 图 
1 所 示 )。 年 轻 被 试 在 0.125~8 kHz 的 频率 范围 内 具 
有 正常 (纯音 测 听 阔 限 不 大 于 20 dB) 且 平衡 (两 耳 的 
闵 限 差别 不 大 于 15 dB) 的 纯音 测 听 阔 限 。 老 年 被 试 
在 0.125~0.5 kHz 的 频率 范围 内 具有 正常 (纯音 测 听 
BRAK 20 dB) 且 平衡 (两 耳 的 闵 限 差别 不 大 于 
15 dB) 的 纯音 测 听 阅 限 , 在 1~4 kHz 的 频率 范围 内 
具有 平衡 和 不 大 于 45 dB 的 纯音 测 听 阔 限 。 不 存在 
传导 性 听觉 损伤 。 
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除了 以 上 条 件 , 老年 被 试 还 需要 通过 简易 精神 
状态 测试 (Mini-mental State Examination, MMSE) 和 
蒙特 利 尔 认 知 评估 (Montreal Cognitive Assessment， 
MoCA), 要 求 MMSE 得 分 > 27 H MoCA 评分 > 


:采用 G*Power 3.1.9 软件 对 研究 所 需 样 本 量 进行 先 验 (priori) 分 
析 。 以 中 等 效应 量 f= 0.3, 统计 检验 力 0.95 (a = 0.05) 估计 最 

小 样本 量 为 每 组 10 个 样本 (Total sample size:20)， 表 明 本 文中 当 
前 的 被 试 量 (青年 组 和 老年 组 ,每 组 12 个 ) 是 足够 的 。 
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26， 以 确保 参加 实验 的 老年 被 试 都 属于 认 知 正常 的 
老年 人 。 
2.2 ”实验 设备 

实验 在 一 个 安静 的 语音 室 中 进行 ,模拟 输出 信号 
通过 位 于 水 平面 正 前 方 的 扬声器 (Dynaudio Acoustics, 
BM6 A) 呈 现 给 被 试 , 扬 声 絮 播 出 的 声音 刺激 强度 在 
整个 实验 过 程 中 保持 恒定 为 60 dBA SPL。 实 验 中 ， 
被 试 坐 于 语音 室 正中 央 的 椅子 上 ， 面 部 朝 前 ,保持 
头 部 不 动 , 扬 声 带 置 于 被 试 正 前 方位 置 约 为 具有 平 
均 身 高 的 被 试 坐位 时 耳 的 高 度 。 

2.3 ”刺激 材料 

a. 中 文 “ 无 意义 ”语句 。 实 验 测 试 中 用 到 的 目标 
言语 刺激 为 中 文 无 意义 句子 (Yang et al., 2007), 所 
有 的 句子 均 来 自 于 北京 大 学 言语 听觉 研究 中 心 自 
建 的 语料库 ， 并 已 被 许多 人 研究 者 (Chen et al., 2018; 
Wu, 2019; Wu et al., 2012; Yang et al., 2007) 使 用 。 
每 句 中 文 无 意义 语句 都 包含 主语 (名 词 )- 谓 语 ( 动 
词 )- 宾 语 (名 词 ) 结 构 。 例 如 ,在 一 个 样 例句 子 “ 他 的 
禹 石 可 能 比赛 这 个 员工 ?中 , 下划线 的 主 \ 谓 、 宾 词 
为 句子 的 3 个 关键 词 ， 每 个 关键 词 都 是 一 个 双 音 节 
词 。 该 无 意义 语句 本 身 的 句子 结构 对 关键 词 的 识别 
不 提供 任何 上 下 文 信息 。 

为 了 确保 这 些 句 子 都 是 无 意义 的 ,实验 对 每 个 
句子 中 所 用 的 两 个 名 词 和 动词 在 所 选 的 《人 民 日 
报 ;数据 库 (1994~2002) 中 在 一 个 正常 句子 中 同时 出 
现 的 概率 都 做 了 严格 限制 。 只 有 当 无 意义 语句 中 的 
3 个 关键 词 在 所 选 数据 库 同 一 个 正常 句子 中 共 现 的 
概率 为 零 时 ， 该 语句 才 会 被 用 作 实验 材料 ( 详 见 
Yang et al., 2007). 

b. 合 成 F0 轮廓 语音 模型 ,为 了 保证 测试 句子 刺 
激 声 学 特征 的 高 质量 和 一 致 性 ,本 实验 使 用 语音 合 
成 技术 产生 语音 材料 。 目 标语 音 是 由 机 器 合成 的 年 
轻 女 性 声音 朗诵 的 。 语 音 样 本 ( 约 432 句 ， 持 续 40 
分 钟 ) 通 过 具有 特定 语音 特征 的 初始 声学 模型 进行 
训练 ， 以 获得 不 同 FO 轮廓 模式 的 每 个 目标 语音 的 
声学 模型 。 对 于 每 个 目标 语音 , 使 用 生成 的 目标 语 
音声 学 模型 ， 可 以 将 无 意义 的 书面 体 句子 转换 为 具 
有 说 话 人 语音 特征 (包括 基 频 、 特 征 音 高 滑动 变化 、 
FO 轮廓 ) 的 语音 信号 。 最 后, 将 具有 不 同 动态 F0 轮 
廓 特征 类 型 的 语音 样本 加 入 到 初始 声学 模型 中 , 通 
过 模型 训练 得 到 具有 不 同 FO 轮廓 线索 (扁平 的 、 自 
然 的 、 拉 伸 的 FO 轮廓 ) 的 声学 语 料 。 

具体 地 ,首先 利用 层次 化 音 高 目标 模型 和 层次 
化 时 长 模型 对 目标 语句 的 FO 轮廓 进行 建 模 (Zhang 


et al.，2010)， 获 取 韵 律 信 息 的 层次 化 特征 ,并 对 其 

音调 和 语调 之 间 的 关联 进行 量化 模拟 ; 接着 , 分 
离 出 音调 和 句子 语调 ; 然后 , 保留 音调 , 将 句 调 进 
行 参 数 化 操作 后 ， 再 将 其 重新 倒 加 、 平 滑 合成 为 连 
续 的 语音 。 这 种 操作 的 目的 是 在 改变 句子 FO 轮廓 
动态 变化 的 同时 保持 其 他 韵律 线索 不 变 。 

使 用 下 列 公式 对 每 个 目标 语句 的 基 频 .万 0 进行 
参数 化 操作 ， 为 每 个 句子 创建 3 种 不 同 FO 轮廓 动 
态 变 化 强度 的 条 件 : 

SO = o x Fo(O/fo)"] (1) 

其 中 ,fr (0 表 示 调 整 后 的 基 频 轮廓 , AOR HER 
语音 的 基 频 , 力 表 示 目 标语 音 基 频 的 平均 值 , m 是 调 
整 参数 。 自 然 的 FO 轮廓 条 件 下 调整 参数 设置 为 1.0， 
扁平 化 的 FO 轮廓 条 件 调整 参数 设置 为 /4, 拉 伸 的 
FO 轮廓 条 件 下 设置 为 4 (Binns & Culling, 2007; 
Miller et al., 2010; Grant, 1987; Shen & Souza, 2019; 
Wu, 2019)。 即 扁平 化 的 FO 轮廓 条 件 是 把 目标 句子 
的 FO 轮廓 的 偏 移 量 压缩 为 原来 的 /4, 拉 伸 扩大 的 
FO 轮廓 则 将 原先 FO 轮廓 的 偏 移 量 在 原来 的 基础 上 
拉 伸 放大 4 倍 (参见 示意 图 2)。 
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图 2 目标 语句 的 频谱 和 FO 轮 廊 (上 ), 以 及 所 对 应 的 3 种 


不 同 FO 轮廓 模式 (下 ) 的 示意 图 


研究 中 所 选取 的 对 FO 轮廓 处 理 的 参数 极 值 是 依 
据 前 人 的 研究 结果 所 选取 的 (Binns & Culling, 2007; 
Miller et al., 2010; Grant, 1987)。 这 些 FO 轮廓 处 理 模 
式 是 特别 选择 的 ,因为 它们 在 背景 噪声 中 始终 显示 
出 对 言语 感知 的 影响 (Binns & Culling, 2007; Miller 
et al., 2010; Grant, 1987; Shen & Souza, 2019), 并 且 这 
种 效应 在 汉语 语言 中 也 得 到 了 证 实 (Wu, 2019). 
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c. 掩蔽 刺激 。 研 究 中 所 用 的 掩蔽 刺激 声音 是 两 
个 与 目标 声音 同性 别 的 说 话 人 声音 的 等 强度 车 加 
形成 的 言语 掩蔽 声音 (Chen et al., 2018; Yang et al., 
2007)。 言 语 掩蔽 信号 是 一 个 时 长 为 47 s、 对 中 文 无 
意义 语句 进行 数字 合成 后 得 到 的 连续 录音 。 用 于 作 
掩蔽 语音 的 语句 由 与 目标 说 话 人 不 同 的 另外 两 个 
年 轻 女 性 声音 说 出 。 所 有 的 言语 刺激 都 被 录制 成 数 
字 化 的 声音 文件 , 采样 率 为 22.05 kHz, 存储 为 16- 
Bit 的 PCM 波形 文件 。 

2.4 实验 设计 和 程序 

实验 采用 2 (年 龄 ) x 3 (FO 线索 类 型 ) x 4 ( 信 品 
比 ) 混 合 设计 。 年龄 为 组 间 变 量 , 包括 年 轻 和 老年 被 
试 组 。 两 个 被 试 内 变量 及 其 水 平分 别 为 : 1) FO R 
索 类 型 : 扁平 的 FO 轮廓 条 件 .自然 的 F0 轮廓 条 件 、 
拉 伸 的 FO 轮廓 条 件 ; 2) 信 品 比 : -4, 0, 4, 8 dB SPL. 
共有 24 种 实验 条 件 ， 每 种 条 件 下 有 18 个 试 次 。 实 
验 中 , 在 每 个 年 龄 组 内 ,3 种 F0 线索 类 型 条 件 在 不 
同 的 被 试 间 进 行 完全 拉丁 方 平衡 。4 种 信 噪 比 在 每 
种 F0 线索 类 型 条 件 中 随机 化 。 

实验 中 ,被 试 按键 开始 一 个 实验 试 次 。 按 键 后 ， 
先 给 被 试 呈现 掩蔽 语音 , 1 s 之 后 给 被 试 呈现 一 个 目 
标语 句 ， 然 后 掩蔽 语音 和 目标 语句 同时 结束 。 被 试 
的 任务 是 在 声音 结束 后 立即 尽 可 能 地 复述 所 听 到 
的 目标 句子 。 实 验 测 试 开 始 前 有 一 个 训练 阶段 ， 确 
保 被 试 能 够 熟悉 测试 流程 。 训练 阶 段 用 到 的 目标 语 
句 不 被 用 到 正式 实验 中 。 


3 ”实验 结果 


实验 过 程 中 对 3 个 关键 词 进行 计 分 ,每 正确 复 
述 一 个 音节 计 一 分 , 一 个 句子 满分 为 6 分。 之 后 计算 
每 名 被 试 在 每 种 实验 条 件 下 (F0 轮廓 类 型 x {UR 
比 ) 的 识别 率 以 用 于 统计 分 析 。 
3.1 对 正确 识别 率 的 数据 分 析 

实验 使 用 SPSS 统计 软件 对 被 试 的 正确 识别 百 
分 率 进 行 线 性 混合 效应 模型 (linear mixed-effects 
models, LMMs; Baayen et al., 2008) 统 计 分 析 。 在 本 
研究 的 模型 中 , 包括 FO 轮廓 类 型 ( 压 扁 、 自 然 、 拉 
伸 )、 年 龄 (年 轻 、 老 年 )、 信 品 比 水 平 (-4, 0, 4, 8 dB 
SPL) 的 固定 效应 ,同时 考虑 被 试 随机 效应 。 

全 模型 探讨 了 年 龄 FO 轮廓 类 型 、 信 噪 比 水 平 
以 及 这 些 因 素 之 间 的 相互 作用 对 听 者 在 言语 掩蔽 下 
的 汉语 言语 识别 成 绩 的 影响 。 结 果 表 明 , 年 龄 组 (Fl， 
22) = 194.15, p < 0.001), FO 线索 类 型 ([F(2, 242) = 
13.24, p < 0.001) Alfa ME LK(F(3, 242) = 271.91, p < 


0.001) 的 主 效应 都 显著 。 显 著 的 主 效应 表明 ,这 三 
个 因素 都 对 汉语 言语 的 可 懂 度 存在 贡献 。 在 交互 作 
用 方面 , FO 线索 类 型 和 信 噪 比 两 个 因素 的 交互 作用 
显著 , F(6, 242) = 2.20, p = 0.043; 信 噪 比 和 年 龄 组 
两 个 因素 的 交互 作用 显著 , F(3, 242) = 10.06, p < 
0.001; FO 线索 类 型 和 年 龄 组 的 交互 作用 也 显著 ， 
F(2, 242) = 7.12, p = 0.001, 但 三 因素 (F0 线索 类 型 
x 信 噪 比 x 年 龄 ) 之 间 交 互 作 用 不 显著 ，F(6，242) = 
1.26, p = 0.272 > 0.1。 

在 各 个 年 龄 组 下 建立 新 模型 , 包括 FO 轮廓 类 
型 ( 压 扁 、 自 然 、 拉 伸 )、 信 品 比 水 平 (-4, 0, 4, 8 dB 
SPL) 的 主 效应 和 两 重 交 互 作用 ,对 实验 各 因素 的 
效应 进行 进一步 的 探测 和 分 析 。 对 年 轻 被 试 组 的 识 
别 成 绩 统计 分 析 结 果 表 明 ， 对 于 年 轻 被 试 组 ，F0 线 
索 类 型 的 主 效应 显著 , F(2, 121) = 17.82, p < 0.001; 
信 品 比 的 主 效应 显著 , FG, 121) = 110.11, p < 
0.001。F0 线索 类 型 和 信 噪 比 两 个 因素 的 交互 作用 
显著 , F(6, 121) = 2.69, p = 0.017。 对 老年 被 试 组 的 
识别 成 绩 统 计 分 析 结 果 表 明 : 对 老年 被 试 组 ， 信 噪 
比 的 主 效应 显著 (F(3, 121) = 178.27, p < 0.001), 但 
是 FO 线索 类 型 的 主 效应 (F(2, 121) = 0.96, p = 0.385) 
以 及 FO 线索 类 型 和 信 噪 比 之 间 的 交互 作用 (CE(6， 
121) = 0.58, p = 0.744) 均 不 显著 。 

在 各 个 FO 轮廓 类 型 条 件 下 建立 新 模型 ， 包括 
年 龄 (年 轻 、 老 年 )、 信 了 品 比 水 平 (-4, 0, 4, 8 dB SPL) 
的 主 效应 和 两 重 交 互 作用 ,对 实验 各 因素 的 效应 做 
进一步 的 探测 和 分 析 。 对 于 自然 FO 轮廓 条 件 下 的 
识别 成 绩 统 计 分 析 结 果 表 明 : 年龄 组 的 主 效应 显著 ， 
F(1, 22) = 152.07, p < 0.001; 信 噪 比 类 型 的 主 效应 
(F(3, 66) = 73.03, p < 0.001) 以 及 信 噪 比 类 型 和 年 龄 
组 之 间 的 交互 作用 (1(3, 66) = 5.52, p = 0.002) 都 达 
到 统计 显著 。 对 于 扁平 FO 轮廓 条 件 下 的 识别 成 绩 统 
计 分 析 结果 表明 : 年 龄 组 的 主 效 应 显著 , F(1, 22) = 
117.75, p < 0.001; 信 噪 比 类 型 的 主 效应 (5(3, 66) = 
113.78, p < 0.001) 以 及 信 噪 比 类 型 和 年 龄 组 之 间 的 
交互 作用 (F(G3, 66) = 4.58, p = 0.006) 均 显著 。 对 于 拉 
申 FO 轮廓 条 件 下 的 识别 成 绩 统计 分 析 结 果 表 明 : 
年 龄 组 的 主 效应 显著 ，F(1, 22) = 89.84, p < 0.001; 
信 噪 比 类 型 的 主 效应 显著 ，F(3，66) = 81.36, p < 
0.001; 但 是 信 噪 比 类 型 和 年 龄 组 之 间 的 交互 作用 
不 显著 , F(3, 66) = 2.49, p = 0.065。 对 两 个 年 龄 组 被 
试 的 识别 成 绩 进 一 步 分 析 表 明 ,， 两 组 被 试 不 管 是 在 
自然 F0 轮廓 条 件 下 还 是 在 扁平 或 拉 伸 FO 轮廓 的 条 
件 下 对 目标 语句 的 识别 率 都 存在 显著 差异 (ps < 
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0.001)。 对 年 龄 组 的 固定 效应 参数 估计 显示 ,在 每 
种 FO 轮廓 条 件 下 老年 被 试 组 的 言语 识别 成 绩 均 显 
著 低 于 年 轻 被 试 组 (自然 FO 轮廓 条 件 下 : 8 = 0.26, 
SE = 0.06, t= 4.70, p < 0.001; 扁平 F0 轮廓 条 件 下 : 
p= 0.17, SE = 0.05, t = 3.20, p = 0.002; 拉 伸 FO 轮 
RATER: 8 = 0.19, SE = 0.06, t = 3.24, p = 0.002). 

在 各 个 信 噪 比 水 平 条 件 下 建立 新 模型 ， 包 括 年 
龄 (年 轻 、 老 年 )、F0 轮廓 类 型 ( 压 扁 、 自 然 、 拉 伸 ) 
的 主 效应 和 两 重 交 互 作用 ， 对 实验 各 因素 的 效应 做 
进一步 的 探测 和 分 析 。 对 于 信 噪 比 为 -4 dB 水 平 条 
件 下 的 识别 成 绩 统计 分 析 结 果 表 明 : 年 龄 组 的 主 效 
应 显著 , F(1, 22) = 69.48, p < 0.001; FO 类 型 的 主 效 
应 显著 , F(2, 44) = 7.10, p = 0.002; 以 及 FO 类 型 和 
年 龄 组 之 间 的 交互 作用 也 显著 , F2, 44) = 4.38, p = 
0.018。 对 于 信 噪 比 为 0dB 水 平 条 件 下 的 识别 成 绩 
统计 分 析 结 果 表 明 : 年 龄 组 的 主 效应 (F(1，22) = 
241.88, p < 0.001), FO 类 型 的 主 效应 (7F(2, 44) = 8.90, 
p < 0.001), 以 及 FO 类 型 和 年 龄 组 之 间 的 交互 作用 
(F(2, 44) = 4.51, p = 0.015) 均 显著 。 对 于 信 品 比 为 4 
dB 水 平 条 件 下 的 识别 成 绩 统 计 分 析 结 果 表 明 : 年 
龄 组 的 主 效应 显著 , F(1, 22) = 53.89, p < 0.001; FO 
类 型 的 主 效应 显著 , F(2, 44) = 4.85, p = 0.013; 但 
F0 类 型 和 年 龄 组 之 间 的 交互 作用 不 显著 , F(2, 44) = 
0.83, p = 0.441。 对 于 信 噪 比 为 8dB 水 平 条 件 下 的 识 
别 成 绩 统计 分 析 结 果 表 明 : 年 龄 组 的 主 效应 显著 ， 
F(1, 22) = 34.11, p < 0.001; 但 FO 类 型 的 主 效应 
(F(2, 44) = 0.80, p = 0.458) 以 及 FO 类 型 和 年 龄 组 之 
间 的 交互 作用 (fF(2, 44) = 1.30, p = 0.283) 都 不 显著 。 
3.2 WIR Al PR BAY SHE AT 

为 了 更 清楚 揭示 年 龄 组 和 FO 线索 类 型 对 被 试 识 
别 成 绩 的 影响 , 我 们 用 公式 (2) 中 的 心理 测量 参数 方 
程 对 每 名 被 试 的 识别 率 数据 进行 了 曲线 拟 合 , 得 到 
每 名 被 试 在 每 种 条 件 下 的 识别 阔 限 值 用 于 数据 分 析 : 

y=1/[1+e 7%] (2) 

式 中 , y 是 关键 词 的 正确 识别 率 , x 是 与 y 对 应 
的 信 噪 比 , y 是 在 曲线 上 对 应 于 50% 识 别 率 处 的 信 
品 比 , 而 5 则 是 心理 测量 函数 的 和 斜率。 参数 由 和 
通过 Levenberg-Marquardt 方法 拟 合 得 到 。 

通过 参数 方程 拟 合 可 以 得 到 每 名 被 试 在 3 种 不 
同 FO 线索 条 件 下 的 识别 阔 限 值 达 到 50% 正 确 识别 
率 时 所 对 应 的 信 噪 比值 )。 图 3 给 出 了 言语 掩蔽 下 
老年 人 与 年 轻 人 在 3 种 不 同 F0 线索 条 件 下 的 识别 
率 及 相应 的 参数 拟 合 曲线 。 

实验 使 用 SPSS 统计 软件 , 采用 线性 混合 效应 
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图 3 不 同 F0 轮廓 条 件 下 识别 率 随 信 噪 比 变化 的 函数 以 
及 对 应 的 参数 方程 拟 合 曲线 
注 : 图 中 用 实 线 表 示 年 轻 人 的 识别 成 绩 , 平滑 的 曲线 是 对 数据 
进行 参数 拟 合 的 结果 。 虚 线 部 分 显示 的 是 老年 人 的 识别 成 绩 进 
行 参数 拟 合 的 结果 。 图 中 3 种 标记 分 别 描述 3 种 不 同 FO 轮廓 
条 件 下 的 识别 率 : 1) 扁 平 的 FO 轮廓 条 件 (空心 圆 ); 2) ARAN FO 
轮廓 条 件 (实心 圆 ); 3) 拉 伸 的 FO 轮廓 条 件 ( 实 心 三 角形 )。 


模型 对 被 试 的 识别 阔 限 值 进行 统计 分 析 。 在 本 研究 
的 模型 中 , 包括 FO 轮廓 类 型 条 件 ( 压 扁 、 自 然 、 拉 
伸 )、 年 龄 组 (年 轻 、 老 年 ) 的 固定 效应 ， 同 时 考虑 被 
试 随机 效应 。 

实验 分 析 结 果 显 示 , F0 轮廓 类 型 (Fr(C2，44) = 
7.15, p = 0.002) 和 年 龄 组 组 间 差 异 (F(1, 22) = 73.21, 
p < 0.001) 对 被 试 的 识别 成 绩 均 有 显著 影响 , FO 线索 
类 型 和 年 龄 组 的 交互 作用 显著 , F(2, 44) = 4.93, p = 
0.012。 固定 效应 参数 估计 进一步 显示 , 老年 被 试 组 
的 言语 识别 成 绩 明 显 差 于 年 轻 被 试 组 (8 = -7.73E0， 
SE = 0.90, t = —8.56, p < 0.001)。 

来 自 年 轻 被 试 组 识别 阔 限 值 的 数据 分 析 显 示 ， 
TEXT FO 线索 操作 的 影响 方面 ,不同 FO 轮廓 类 型 对 
被 试 识别 成 绩 的 影响 显著 , F(2, 22) = 6.87, p = 
0.005。 在 模型 中 将 自然 FO 轮 廊 条 件 作 为 基线 条 件 ， 
对 FO 轮廓 被 调节 的 条 件 和 自然 F0 轮廓 条 件 之 间 的 
识别 成 绩 进行 比较 。 结 果 显 示 ， 与 自然 动态 FO 轮 
RAR ARE PAB LL, E FO 轮廓 条 件 下 的 言语 识别 
表现 明显 较 差 (6 = 2.92E0, SE = 0.88, t = 3.33, p = 
0.003); 拉 伸 FO 轮廓 条 件 下 的 言语 识别 成 绩 也 比 自 
然 动 态 FO 轮廓 条 件 下 的 显著 较 低 (8 = 2.70E0, SE = 
0.88, t= 3.08, p= 0.005). 但 压 扁 FO 轮廓 与 拉 伸 FO 
条 件 下 的 言语 识别 成 绩 之 间 差 异 不 显著 (8 = 0.21, 
SE = 0.88, t = 0.24, p= 0.811)。 

WY EAE Be isk 2A A aH N BS EL A SCH od WT Be HL, 不 
同 FO 轮廓 线索 类 型 对 老年 被 试 的 言语 识别 成 绩 的 
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影响 不 显著 , F(2, 22) = 0.50, p = 0.614。 压 扁 FO 轮 
RAR E(B = 0.34, SE = 0.34, t = 0.99, p = 0.33) 或 拉 
伸 FO 轮廓 条 件 (8 = 0.16, SE = 0.34, t = 0.48, p = 
0.637) 下 的 言语 识别 成 绩 与 自然 动态 FO 轮廓 线索 
条 件 下 的 言语 识别 成 绩 之 间 差 异 均 不 显著 。 

为 了 进一步 探究 数据 支持 两 个 主 效应 以 及 主 效 
应 间 交 互 作用 显著 的 可 靠 性 , 使 用 统计 软件 JASP 
(https://jasp-stats.org/, JASP Team 2019) (Wagenmakers 
et al., 2018) 对 数据 进行 贝 叶 斯 分 析 检 验 , 分 析 产 生 
的 贝 叶 斯 因子 (BF10) 描 述 了 数据 对 假设 的 支持 程度 ， 
能 够 量化 备 择 假设 H 和 有 零 假设 Ho 的 相对 证 据 。 

实验 使 用 JASP 的 默认 分 布 ， 对 两 个 年 龄 被 试 
组 的 识别 阔 限 值 数据 进行 贝 叶 斯 重复 测量 方差 分 
析 ， 结 果 显 示 年 龄 组 主 效应 的 BFio 值 是 635658.21， 
根据 贝 叶 斯 因子 的 决策 标准 (Jeffreys，1961), 该 结 
果 表 明 有 极 强 的 证 据 支 持 Hi; FO 轮廓 类 型 主 效应 
的 BFio 值 是 8.66， 有 中 等 强度 的 证 据 支 持 匠 ;年龄 
组 和 F0 轮廓 类 型 的 主 效应 之 和 的 BFio 值 是 5.59e+6， 
表明 与 单独 的 FO 轮廓 主 效应 相 比 ， 当 加 入 年 龄 的 
效应 时 ,数据 对 Hi 的 支持 提高 了 大 约 6.46e+05 ff; 
在 此 基础 上 ， 当 把 年 龄 组 和 FO 轮廓 类 型 的 交互 作 
用 也 增加 到 模型 中 时 , BP io 值 是 2.25e+7， 表 明 有 极 
强 的 证 据 支 持 Hio 

对 年 轻 被 试 组 的 数据 进行 贝 叶 斯 重复 测量 方 
差分 析 , 结果 显示 贝 叶 斯 因子 BFio = 12.32; 说 明 
有 和 较 强 的 证 据 支 持 H， 即 年 轻 人 FO 轮廓 类 型 的 主 
效应 显著 。 对 老年 被 试 组 的 数据 进行 贝 叶 斯 重复 测 
量 方 差分 析 , 结果 显示 贝 叶 斯 因子 BFie = 0.27; 说 
明 存 在 中 等 强度 的 证 据 支持 Ho， 即 老年 人 的 FO 轮 
廓 线索 类 型 的 主 效 应 不 显著 。 

进一步 的 简单 效应 检验 使 用 JASP 默认 分 布 对 
老年 被 试 在 不 同 FO 轮廓 类 型 条 件 下 的 数据 两 两 进 
行 贝 叶 斯 配对 样本 t 检验 , 分 析 得 出 的 贝 叶 斯 因子 
数值 ( 压 扁 的 FO 轮廓 条 件 和 自然 F0 轮廓 条 件 , BF io 
为 0.42; 自然 F0 轮 廓 条 件 和 拉 伸 F0 轮廓 条 件 , BF io 
为 0.34; 压 扁 F0 轮 廓 条 件 和 拉 伸 F0 轮廓 条 件 , BF io 
H 0.32), 根据 Jeffreys (1961) 提 出 的 分 类 标准 ， 表 
明 当 前 的 数据 有 较 弱 的 证 据 支持 了 Ho, 也 说 明 观 
察 到 的 老年 被 试 的 数据 相对 于 备 择 假 设 Hi 更 加 支 
持 没有 效应 的 假设 Ho， 即 老年 被 试 的 识别 成 绩 在 
不 同 FO 轮廓 类 型 的 条 件 之 间 没 有 显著 差异 。 


4 讨论 


本 研究 考察 了 FO 轮廓 线索 的 操作 对 老年 人 与 


年 轻 人 在 言语 掩蔽 下 的 汉语 言语 识别 成 绩 的 影响 。 
研究 结果 表明 老龄 化 会 影响 老年 听 者 对 动态 F0 轮 
廓 线索 的 感知 和 利用 。 实验 结果 发 现 所 有 年 龄 组 在 
不 同 FO 线索 条 件 下 的 言语 识别 成 绩 都 会 随 着 信 噪 
比 的 增加 而 提高 ， 研 究 结 果 也 证 实 了 动态 FO 轮廓 
线索 有 助 于 年 轻 人 在 言语 掩蔽 下 有 效 的 语音 识别 ， 
然而 对 于 听力 正常 的 老年 人 来 说 , 这 种 动态 FO 46 
廓 线索 的 获 益 似乎 是 有 限 的 。 研 究 结 果 显 示 , 在 多 
人 说 话 的 言语 掩蔽 下 , FO 轮廓 自然 的 目标 比 扁平 或 
拉 伸 的 FO 轮廓 的 目标 更 能 帮助 年 轻 被 试 抵抗 掩蔽 ; 
而 相 比 年 轻 人 , 老年 人 在 嗜 杂 环境 中 很 可 能 遵循 
FO 轮廓 动态 变化 出 现 了 困难 ,使 得 老年 人 难以 利 
用 FO 轮廓 线索 提高 对 背景 掩蔽 声 中 的 目标 言语 识 
别 ， 从 而 导致 FO 轮廓 动态 变化 促进 老年 人 从 掩蔽 
语音 流 中 分 离 出 目标 言语 的 作用 变 得 有 限 。 

实验 研究 评估 了 老年 被 试 组 与 年 轻 被 试 组 在 
言语 掩蔽 下 聆听 具有 自然 FO 轮廓 的 汉语 语句 与 拉 
伸 的 或 扁平 的 F0 轮廓 的 相应 语句 的 言语 识别 成 绩 。 
数据 分 析 结 果 发 现 FO 轮廓 类 型 、 信 噪 比 水 平和 年 
龄 因素 都 会 对 听 者 言语 识别 成 绩 产 生 影响 。 研 究 结 
果 显 示 信 噪 比 对 年 轻 被 试 和 老年 被 试 都 存在 显著 
的 影响 (ps < 0.001)。 不 管 是 老年 被 试 组 还 是 年 轻 被 
试 组 ,在 言语 掩蔽 下 关键 词 的 识别 率 都 随 着 信 噪 比 
的 提高 而 升 高 。 具 体 地 ， 在 本 实验 的 所 有 条 件 中 ， 
关键 词 的 识别 率 都 随 着 信 品 比 从 -4 dB 增加 到 8 dB 
而 呈 单 调 增加 的 趋势 ,没有 表现 出 任何 平台 效应 。 
言语 掩蔽 的 干扰 声音 下 ,这 种 目标 识别 率 的 单调 递 
增 趋 势 是 与 前 人 所 报告 的 结果 一 致 (Brungart et al., 
2001; Li et al., 2004; Wu, 2019)。 

研究 结果 还 显示 ， 对 于 年 轻 被 试 组 ,不 管 是 在 
自然 F0 轮廓 条 件 下 还 是 在 扁平 或 拉 伸 FO 轮廓 的 条 
EF, 年 轻 被 试 对 目标 语句 的 识别 率 都 随 信 噪 比 的 
降低 而 降低 。 数 据 分 析 结 果 表 明 在 每 种 F0 轮廓 条 
件 下 ， 信 噪 比 对 目标 识别 率 的 作用 都 显著 (ps < 
0.001)。 对 于 老年 被 试 组 ,实验 结果 也 显示 不 管 在 
自然 F0 轮廓 条 件 下 还 是 在 扁平 或 拉 伸 FO 轮廓 的 条 
F, 老年 被 试 对 目标 语句 的 识别 率 都 随 信 噪 比 的 
变化 而 变化 。 数 据 分 析 表 明 信 噪 比 对 识别 率 的 作用 
不 管 是 在 自然 FO 轮廓 条 件 < 0.001) 下 还 是 在 被 
调节 的 FO 轮廓 线索 的 条 件 (ps < 0.001) 下 都 显著 。 
这 个 结果 与 年 轻 被 试 的 结果 一 致 。 然 而 ， 与 年 轻 被 
试 的 结果 不 同 的 是 ， 对 老年 被 试 而 言 ， 自然 动态 FO 
轮廓 条 件 产 生 的 去 掩蔽 作用 与 扁平 的 FO 轮廓 条 件 
或 拉 伸 的 FO 轮廓 条 件 产生 的 去 掩蔽 作用 相当 (ps > 
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0.05)。 而 年 轻 被 试 在 自然 动态 FO 轮廓 条 件 产 生 的 
去 掩蔽 作用 与 扁平 的 FO 轮廓 条 件 ( < 0.001) 或 拉 
伸 的 FO 轮廓 条 件 < 0.001) 产 生 的 去 掩蔽 作用 存 
在 显著 差异 。 

具体 实验 测量 结果 显示 ,言语 掩蔽 下 给 年 轻 被 
试 呈现 中 文 无 意义 语句 时 ， 具 有 自然 动态 FO 轮廓 
的 语句 比 具 有 扁平 的 F0 轮廓 或 拉 伸 FO 轮廓 的 语句 
都 表现 出 较 好 的 言语 识别 成 绩 。 说 明 具 有 自然 F0 
轮廓 的 条 件 比 具有 拉 伸 或 扁平 FO 轮廓 的 条 件 更 好 
地 被 感知 。 这 一 结论 发 现 证 明了 自然 FO 轮廓 线索 
对 年 轻 听 者 在 噪声 下 言语 识别 中 的 重要 作用 。 研究 
结果 也 表明 了 对 FO 轮廓 线索 的 操作 会 对 听 者 在 言语 
掩蔽 下 的 汉语 言语 识别 表现 产生 有 害 影响 。 本 研究 的 
结果 与 英语 语音 感知 人 研究 的 文献 (Binns & Culling, 
2007; Miller et al., 2010; Shen & Souza, 2019) 中 的 结 
论 一 致 ,， 表明 与 自然 的 FO 轮廓 模式 相 比 ,被 调节 
操作 的 动态 FO 线索 对 噪声 中 的 言语 感知 有 负面 影 
响 。 同 时 ,本 研究 结果 也 支持 了 Patel 等 人 (2010) 
All Wu (2019) 中 关于 FO 轮廓 的 自然 动态 变化 对 背景 
噪声 中 的 汉语 言语 识别 具有 重要 贡献 的 论述 。 

对 老年 被 试 的 数据 分 析 结 果 显 示 ,， 老年 被 试 在 
言语 手 蔽 下 聆听 具有 自然 FO 轮廓 的 汉语 语句 与 拉 
伸 的 或 扁平 的 FO 轮廓 的 相应 句子 呈现 出 同样 低 的 
言语 识别 成 绩 。 研 究 结 果 表 明 ， 扁平 或 拉 伸 FO 轮 
廓 的 条 件 没 有 能 帮助 老年 人 在 言语 掩蔽 环境 下 抵 
抗 信息 掩蔽 ， 自 然 动态 变化 的 FO 轮廓 的 条 件 也 没 
有 比 对 FO 轮廓 操作 后 的 条 件 更 能 抵抗 信息 掩蔽 ,说 
明 在 多 人 说 话 的 嘲 杂 环境 下 老年 听 者 可 能 难以 利用 
动态 FO 轮廓 线索 以 促进 对 掩蔽 下 的 目标 言语 识别 。 

在 多 人 同时 说 话 的 嘲 杂 环境 下 ,， 听 者 会 在 知觉 
层次 上 利用 一 些 线索 来 促进 他 们 在 目标 语音 和 捧 
项 语音 之 间 的 知觉 分 离 ， 提 高 对 目标 言语 的 有 效 识 
别 (Schneider et al., 2016)。 嘲 杂 环 境 下 年 轻 听 者 可 
以 利用 语音 基 频 的 差异 来 区 分 目标 语音 和 掩蔽 语 


2009; Vongpaisal & Pichora-Fuller, 2007)。 由 于 老年 
人 在 处 理 相互 竞争 的 说 话 者 之 间 的 FO 差异 方面 增 
加 了 难度 ,因此 FO 处 理 的 缺陷 可 能 会 导致 老年 人 
在 哮 杂 环境 下 从 FO 线索 中 获 益 的 能 力 存 在 年 龄 相 
关 性 下 降 。 

言语 的 时 间 结 构 分 成 为 周期 性 线索 、 包 络 线索 
和 精细 结构 信息 三 个 不 同 的 水 平 , 这 几 种 时 域 线 索 
相互 补充 , 传递 了 语音 的 完整 信息 (Rosen，1992)。 
给 听力 正常 的 听 者 播放 言语 语音 时 , FO 感知 的 主导 
线索 是 分 解 的 低频 谐 波 (Arehart, 1994; Oxenham, 
2008)， 即 精细 结构 ; 此 外 FO 感知 也 可 以 从 高 频 未 
分 解 谐 波 传递 的 高 速 包 络 波动 中 得 出 ， 即 周期 性 
(Oxenham, 2008)。 许多 证 据 表 明 老 年 人 比 年 轻 人 在 

言语 掩蔽 下 的 语音 识别 任务 以 及 涉及 周期 性 线 
索 的 心理 物理 任务 方面 表现 更 差 ( 如 : Vongpaisal & 
Pichora-Fuller, 2007; Arehar et al., 2011)。 这 些 研 究 
中 普遍 存在 的 假设 是 ,周期 性 线索 有 助 于 促进 语音 
流 分 离 ， 而 老年 人 比 年 轻 人 更 难 意识 到 这 一 好 处 
(Bologna et al., 2019)。 已 有 的 研究 证 明了 在 多 人 说 
话 的 言语 识别 任务 中 , 为 F0 提供 周期 性 线索 可 以 
提高 句子 识别 能 力 (Stone et al., 2008)。 然 而 老龄 化 
会 对 周期 性 和 精细 结构 知觉 产生 不 利 影响 。 例 如 ， 
在 脑 干 周期 性 线索 的 神经 表征 中 观察 到 了 年 龄 相关 
的 下 降 (Clinard & Tremblay, 2013; Snyder & Alain, 
2005)。 老 年 人 难以 使 用 周期 性 线索 来 获取 与 说 话 
者 语音 基本 频率 相关 的 信息 (Souza et al., 2011)。 
此 , 与 年 龄 相关 的 周期 性 编码 下 降 会 对 老年 人 受益 
F FO 轮廓 线索 的 能 力 产生 不 利 影响 。 

此 外 , 由 于 年 龄 相关 的 时 域 包 络 (如 : Souza & 
Boike 2006; Souza et al. 2011) 和 精细 结构 (e.g. 
Vongpaisal & Pichora-Fuller 2007; Hopkins & Moore 
2011; Smith et al., 2002) 线 索 处 理 方面 的 缺陷 , 老年 
人 可 能 不 能 像 年 轻 人 一 样 使 用 和 整合 不 同类 型 的 
线索 进行 言语 识别 。 基 频 (F0) 轮 廓 线索 对 老年 人 在 


音 (Darwin et al., 2003)。 当 目标 语音 和 掩蔽 语音 同 
时 存在 时 ， 目 标语 与 掩蔽 语 之 间 的 FO 差异 能 够 加 
强 听 者 对 目标 言语 的 跟踪 ,进而 提高 言语 识别 率 
(Brungart et al., 2001)。 然而 老龄 化 会 对 处 理 竞争 声 
音 之 间 的 基 频 差异 的 能 力 造 成 有 害 影响 。 有 研究 证 
据 显 示 老 年 人 在 处 理 安静 环境 中 声音 的 基 频 信息 
时 有 更 大 的 困难 (Lee, 2013)。 老 年 被 试 的 FO WEI le 
值 明 显 大 于 年 轻 被 试 (Souza et al., 2011; Vongpaisal & 
Pichora-Fuller, 2007); 老年 人 也 表现 出 使 用 F0 差异 
来 感知 竞争 声 的 难度 增加 (如 : Rossi-Katz & Arehart, 


目标 言语 识别 中 的 贡献 模式 可 能 也 不 同 于 年 轻 人 。 
包 络 成 分 和 精细 结构 成 分 信息 对 听觉 感知 具有 不 
同 的 贡献 。 精细 结 构 主要 对 语音 的 音调 识别 和 声 源 
定向 起 重要 作用 ,而 包 络 主要 对 言语 的 内 容 识别 起 
重要 作用 ( 李 量 等 , 2017; Smith et al., 2012)。 基 频 
FO 是 一 种 精细 结构 的 线索 (Brown & Bacon, 2010), 
有 利于 在 噪声 中 的 言语 识别 。 然 而 老龄 化 会 降低 对 
精细 结构 的 感知 敏感 度 ， 从 而 影响 对 精细 结构 信息 
的 编码 能 力 (Pichora-Fuller et al., 2007)。 这 种 对 声音 
精细 结构 信息 人 处理 精确 性 的 缺失 会 使 得 老年 人 在 


102 心 理 


ChinaXiv 合 作 期 刊 


报 第 55 卷 


4k 


需要 跟踪 基 频 变化 的 情况 下 处 于 不 利 地 位 。 因 此 ， 
与 年 轻 人 相 比 , 老年 人 在 言语 掩蔽 下 遵循 FO 轮廓 
动态 变化 更 为 困难 。 

本 文 的 研究 结果 提供 证 据 表 明了 老龄 化 会 影 
响 听 者 对 动态 FO 轮廓 线索 的 感知 和 利用 。 与 自然 
动态 FO 轮廓 条 件 相 比 , 本 项 研究 中 当前 的 FO 轮廓 
调节 策略 并 不 有 利于 老年 人 在 言语 掩蔽 下 感知 目 
标语 音 。 这 种 不 利 可 能 源 于 多 种 因素 , 包括 背景 掩 
蔽 类 型 和 言语 刺激 选择 的 影响 ,这些 都 有 待 于 今后 
的 研究 阐明 。 例 如 ,本文 研 究 中 使 用 的 是 汉语 语句 ， 
言语 信号 在 频谱 结构 和 时 间 包 络 上 快速 不 断 地 变 
化 ,这 些 复杂 的 模式 很 可 能 会 干扰 老年 人 对 动态 
FO 轮廓 线索 的 感知 和 利用 。 因 此 ,在 不 利 条 件 下 ， 
错过 这 些 线 索 的 受益 可 能 会 增加 老年 人 的 言语 识 
别 难度 。 语 音信 号 是 调幅 调频 信号 ,频谱 线索 由 信 
号 的 谐 波 结 构 、 基 频 变 化 和 共振 峰 共同 构成 。 共 振 
峰 的 一 个 重要 特性 在 于 它们 在 背景 噪声 中 可 以 得 
到 比较 好 的 保持 (Assmann & Summerfield, 2004). 
共振 峰 频 率 的 动态 模式 会 伴随 着 信和 号 的 频谱 和 时 
间 包 络 线 而 变化 ,这 可 能 会 模糊 听 者 感知 FO FOR 
动态 变化 所 需 的 线索 (Souza et al., 2011)。 所 以 , 老 
年 听 者 感知 并 追踪 动态 FO 轮廓 变化 出 现 困 难 可 能 
是 因为 对 共振 峰 变 化 的 干扰 更 敏感 ， 从 而 对 他 们 在 
言语 识别 中 从 动态 F0 线索 中 获 益 造 成 不 利 影 响 ， 
值得 未 来 研究 的 进一步 关注 。 此 外 , 本 研究 所 使 用 
的 言语 刺激 是 无 意义 的 中 文句 子 。 应 该 探索 的 一 种 
可 能 性 是 ,为 了 提高 背景 掩蔽 声 下 的 言语 可 懂 度 ， 
动态 FO 线索 是 否 可 以 与 其 他 线索 协同 工作 。 未 来 
的 研究 可 以 揭示 这 种 可 能 性 ,研究 聚焦 于 探讨 那些 
具有 语言 学 意义 的 FO 线索 的 增强 策略 的 方法 是 否 
能 够 改善 老年 听 者 在 背景 掩蔽 声 下 的 言语 感知 。 

值得 注意 的 是 , 在 前 人 的 研究 中 , 老年 人 年 龄 
相关 性 听力 下 降 与 声音 辨别 能 力 (Helfer & Freyman, 
2008) 或 声音 精细 结构 保持 的 初始 听觉 “记忆 ?能 
(Huang et al.，2008) 没 有 显著 相关 性 ; 老年 人 在 利 
用 知觉 空间 分 离线 索 从 信息 掩蔽 中 释放 目标 语音 
的 能 力 并 不 比 年 轻 人 差 (Helfer & Freyman, 2008; Li 
et al., 2004)。 尽 管 如 此 , 不 应 完全 排除 年 龄 相关 性 
听力 损失 在 损害 利用 FO 轮廓 线索 以 促进 噪声 下 言 
语感 知 方面 的 作用 。 在 未 来 的 工作 中 ,研究 闪 上 听 
觉 能 力 测量 和 动态 FO 线索 获 益 之 间 的 关系 具有 重 
要 意义 。 从 临床 角度 来 看 ， 这 项 工作 还 可 以 扩展 到 
包括 一 组 患 有 听力 损失 的 年 轻 人 或 老年 人 ， 以 研究 
听力 损失 对 噪声 下 言语 识别 的 动态 FO 线索 获 益 程 


AE A 影响 。 


5 结论 


老年 人 在 安静 环境 下 的 言语 知觉 和 理解 能 
正常 , 但 在 日 常 交 流 的 嗜 杂 环境 中 理解 言语 时 总 是 
比 年 轻 人 遇 到 更 多 的 困难 。 基 频 (F0) 轮 廓 有 助 于 日 
常 交流 中 的 言语 识别 ， 可 以 作为 从 背景 噪声 中 分 离 
语音 的 感知 线索 。 本 文 考 察 了 老年 人 与 年 轻 人 在 言 
语 掩蔽 下 聆听 具有 自然 FO 轮廓 的 汉语 语句 与 拉 伸 
的 或 扁平 的 FO 轮廓 的 相应 语句 的 言语 识别 能 力 。 
研究 结果 表明 了 句子 FO 轮廓 信息 对 听 者 在 噪声 下 
汉语 言语 感知 具有 重要 作用 。 实 验 结果 显示 年 轻 人 
在 言语 掩蔽 环境 下 能 够 利用 动态 FO 轮廓 线索 抵抗 
信息 掩蔽 识别 目标 言语 。 而 相 比 年 轻 人 , 老年 人 在 
多 说 话 人 环境 下 的 汉语 言语 识别 中 似乎 遵循 FO 轮 
廓 动态 变化 出 现 困难 。 这 种 感知 和 追踪 FO 轮廓 动 
态 变 化 能 力 的 年 龄 相关 性 下 降 , 使 得 言语 掩蔽 下 动 
AS FO 轮廓 线索 对 老年 人 的 汉语 言语 识别 去 掩蔽 作 
用 变 得 有 限 。 研 究 结果 也 体现 了 汉语 成 句 FO 轮廓 
线索 对 老年 人 和 年 轻 人 在 言语 掩蔽 下 目标 识别 中 
贡献 模式 的 差异 性 。 本 项 研究 尝试 通过 揭示 老年 人 
利用 F0 轮廓 线索 促进 噪声 下 汉语 言语 感知 能 力 的 
老化 特点 ,为 老年 听 者 在 嗜 杂 环境 下 往往 难以 理解 
言语 提供 一 种 解释 。 
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Abstract 


Older adults encounter difficulty in recognizing speech in environments where multiple people are talking. 


Fundamental frequency (F0) contour is very important for speech recognition in daily communication and can 


serve as a perceptual cue to segregate speech from background noise. The effect of dynamic FO contour cues on 


the speech recognition of younger adults in noisy environments has been widely studied, but the influence on 


older adults’ speech recognition, especially in tonal languages like Chinese, is still unclear. 


The present study explores whether older adults can benefit from dynamic FO contour cues for Chinese 
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speech recognition under the masking of speech with 12 elderly participants (6 female and 6 male, mean age 
68.6 years) and 12 young participants (7 male and 5 female, aged 18~25 years old) possessing normal peripheral 
hearing. The speech recognition threshold for natural FO contour sentences and the corresponding sentences with 
FO contour manipulations (flattened vs. exaggerated) under two-speaker anomalous speech masking for younger 
adults and older adults were measured, as well as their ability to follow the target speech under speech masking. 

The results showed that natural dynamic FO contour cues are important to Chinese speech recognition when 
multiple people are speaking. Speech recognition in all age groups improved with higher signal-to-noise ratios, 
but while natural FO patterns facilitated performance of younger adults under speech masking, it had no 
significant effect on older adults. Under masking with two speakers, the natural dynamic FO contour cues assist 
young adults to resist information masking more than a flattened or exaggerated FO contour, but for the older 
adults, the speech intelligibility of the target sentences with a natural FO contour was as poor as that of target 
sentences with flattened or exaggerated FO contour. 

The availability of FO contour cues seriously affects the benefits of dynamic FO contour cues for older 
adults’ speech recognition against speech masking. There also appears to be an age-related reduction of the 
benefit from dynamic FO contour cues in masked speech recognition, so the FO contour of Chinese sentences 
may contribute more to speech recognition under speech masking for younger adults than for older adults. 
Keywords Chinese speech recognition, fundamental frequency contour, age-related deficits, speech masking, 

unmasking 


